九成以上研究者或无法正确理解p值

返朴 2023-06-21

The following article is from OpenScience Author OpenScience

加星标，才能不错过每日推送！方法见文末动图

如果统计推断的仪式化操作不被打破，研究者没有良好的统计思维，那么，换掉p值，“与时俱进”的新问题还是会不断出现。

撰文 | 许岳培（中国科学院心理研究所，中国科学院行为科学重点实验室）、吕小康（南开大学周恩来政府管理学院社会心理学系，南开大学计算社会科学实验室）、胡传鹏（德国莱布尼茨心理韧性研究中心(Leibniz Institute for Resilience Research)）

尽管近年来统计推断领域一直人才与工具迭出，但原假设显著性检验（Null Hypothesis Significance Testing, NHST）仍是20世纪后半叶以来最为流行的统计推论模式。一项针对Science、Nature和PNAS三本顶级杂志的调查表明，在过去的20年，出现在三本杂志中的图表仍然高度依赖、且越来越依赖于p值(Cristea & Ioannidis, 2018)。但是，如此常用的p值在统计学界和科学界其实褒贬不一。原因不外乎两点：1）从统计原理的角度上，p值能够反映的信息与数据所代表的实际信息存在较大差别；2）从研究者使用的角度上，p值的构造理念和解读方式本身不容易理解，具有认知上的误导性。如何正确地使用与解读p值，遂成为一个“一直在讨论、从未被解决”的问题。

天下苦p值久矣？

与NHST的流行相伴的，是过于强调统计显著性来区分实验效应是否存在的理念。这可能使得研究者一直纠结于自己研究的p值是否小于0.05，从而造成所谓的p值操纵（p-hacking）、发表偏见（publication bias）等一系列负面现象。但事实上，相比统计显著性或是p值是否小于0.05，对于研究本身而言，还有更为重要的指标，包括但不限于置信区间（Confidence Interval，CI）、统计效力（power）、效应量（effect size）等等。况且，p值会因研究设计和操作的不同自然而然地存在一定差异，这就意味着在不同的实验中p值本就没有可比性。
鉴于以上种种理由，执科学发表之牛耳的自然杂志（Nature）于2018年发表了一篇800多位科学家联合署名的评论文章，反对滥用统计显著性。在该评论文章中，揭竿而起的科学家们呼吁摈弃掉根据“统计显著” vs “统计不显著”，即所谓的“统计显著性”来得出结论的二分思维（www.nature.com/articles/d41586-019-00857-9）。

Nature上发表的联名评论：“让统计显著性退休！”
另外，更早一些时候，2016年美国统计学会（American Statistical Association，ASA）其实也曾就统计检验及p值的相关问题发出过官方声明。声明明确指出了p值的含义、使用规范及其局限——p值不可表示原假设成立的概率；不应仅依靠p值得出研究结果；应完整报告p值及其实验条件、不应选择性报告p值；p值不可表示研究效应的大小或重要性；p值本身不可用以评判假设或模型的好坏。
但除了这些和p值所依赖的原假设检验原理直接相关的局限外，还有一个可能更为严重的问题——原假设检验和p值本身作为一种统计工具“仅有局限、并无过错”，但使用者的滥用和误用，使得原假设检验和p值成为了被批判的靶子。这就涉及前面提及的p值的第二个问题：在认知层面，p值本身就容易遭到误解。
无论是Nature上800名科学家倡导的废弃统计显著性，还是ASA呼吁的规范使用p值，亦或是其他关于p值的热烈讨论（例如：Benjamin等在2017提出的将统计显著的p值阈限下调至.005；以Basic and Applied Social Psychology等期刊为代表所主张的“罢黜”所有依靠p值的研究），其核心议题均是如何正确理解及正确使用p值或CI（置信区间）。
到底如何正确理解p值？

2014年2月，ASA论坛上曾出现过一位美国统计学教授的疑问：

“为什么大学和研究院在教p<.05的规则 —— 因为科学界和杂志都在用。”

“那为什么科学界和杂志都在用p<.05的规则 —— 大学和研究院在教。”
短短的两句话，道出目前科学界p值使用和教育过程的死循环。一方面，杂志编辑和科学界对p值的推崇使得基于p < .05得出一个“显著”结论成了几乎每一位学生和科研人员的必修课；另一方面，经受了该必修课洗礼的学生理所应该地在论文中一次又一次地使用p < .05，使得科学界和杂志编辑进一步加深了对p值的依赖。但是，这样的封闭循环显然并不利于统计推断理念的更新——接二连三的研究已经充分表明一个事实：想要正确理解p值并非易事。
早在1986年，Oakes (1986) 针对心理系师生的调查就表明，仅有3%的受访者对p值做出了正确解读。2002年，Haller和Krauss的调查表明，教授方法学的教师对p值的误解率也高达80%，心理系学生更是全军覆没，无一能够准确解读p值。近十年，又有研究者对心理学研究者进行了关于p值解读的调查(Badenes-Ribera, Frias-Navarro, Iotti, Bonilla-Campos, & Longobardi, 2016; Badenes-Ribera, Frías-Navarro, Monterde-i-Bort, & Pascual-Soler, 2015; Lyu, Peng, & Hu, 2018; 胡传鹏等, 2016)，但结果均表明：大部分研究者无法正确解读p值。大家学习到的似乎只有如何获取p值的 “套路” ，而并非蕴含在p值背后的深层逻辑和统计学意义。
值得一提的是，一度被认为是p值滥用之解药——基于估计的统计指标置信区间CI，也没有逃过被套路的命运。2014年，Psychonomic Bulletin & Review刊文报告了562名心理学研究者和学生对CI的理解情况，结果表明，仅有11名受访者正确解读了CI。几年以来，又有多项研究针对CI的解读进行调查(Greenland et al., 2016; Lyu et al., 2018; Morey, Hoekstra, Rouder, & Wagenmakers, 2016)，结果也一致表明：大部分研究者无法正确解读CI。
对此，德国马克斯-普朗克研究所的吉仁泽（Gerd Gigerenzer）教授将这样的统计操作称为“无脑的统计”（Mindless Statistics）——许多研究者只是学到了统计推断的“套路”，即：建立零假设、依据p值接受/拒绝假设、如此循环往复，而没有真正理解统计推断的思维。
现在我们还做“无脑的统计”吗？

距离1986年Oakes发出的第一份p值问卷已经过去了三十余年，研究者及学生们对p值和CI的解读情况是否有所好转？特别地，向来以基础数学训练功底和统计计算功力为傲的中国研究者，能够濯清涟而不妖地独善其身吗？
答案似乎是否定的。
从2017年9月到2018年11月，我们利用Oakes等人的针对p值和CI的问卷再一次重复了该研究。不同的是，这次调查中，我们联系了“知识分子”“科学人”“统计之都”“定量群学”“我爱脑科学网”等多家科学类公众号，将调查的学科规模扩大到了社会科学、医学、理学、工学、农学、经济学、以及数学/统计学等背景的1479名受访者，而不是仅限于心理学受访者。所有受访者均系统学习了假设检验的相关课程（如概率论与数理统计、心理与教育统计学、管理统计学等）。
我们使用的问卷中设立了一个采用独立样本t检验比较两组均值差异的研究场景，统计结果为p = .008，受访者根据这一p值对“你已证实原假设是错的”“你发现了原假设为真的概率”等四句陈述进行正误判断；类似地，CI部分，我们给出了两组均值差的95%CI为 [0.1, 0.4]，并让受访者对“真实均值差/总体均差有95%的概率落在0.1和0.4之间”等四句陈述进行正误判断。（在原问卷中我们还设置了非显著情景，即p = 0.21，CI [‒0.1,0.4]的场景，但研究未发现显著性对解读的影响，具体分析在此不做赘述。问卷题目均来自公开发表的文献，具体参见文末原文。）
本次调查的结果仍与前人的研究保持高度一致：平均而言，有89%的受访者错误解读了p值，有93%的受访者错误解读了CI；所有学科背景的受访者，包括数学/统计学背景的大部分研究者、学生均无法完全正确解读p值和CI。下图展示了不同学位、学科背景、最高学位获得地受访者对p值和CI解读的错误率。

不同学位、学科背景、最高学位获得地受访者对p值和CI解读的错误率
更尴尬的是，受访者对自己的回答似乎还挺“有信心”。当自评自己回答的信心程度时，受访者对各道题的平均信心程度均超3.8分（五级李克特量表，分数越大越自信），见下图。另外，我们发现最高学位获得地为海外或港澳台的研究者或学生，对p值的误解似乎要（统计上显著地）少于最高学位获得地是中国内地的研究者或学生（p值：84% vs 90%；CI：89% vs 93%），尽量两者同样拥有相当高的误解率。

每道题的错误率及信心程度（左图a为p值，右图b为CI）

如吉仁泽所言，很大一部分的统计推断工作遵循了这样的仪式化套路：

步骤1：建立零假设；

步骤2：报告p值，接受、拒接假设；

步骤3：一遍又一遍地重复步骤1和2。
这样的套路容易使人们陷于不求甚解而又过于自信的危机中：只知道小于0.05的p值是好的，只知道远离0的CI是好的，而不明白p值和CI到底意味着什么。要打破这样的现状，最好的做法就是学习一套系统完整的统计方法（a set of statistical toolbox），而不是继续延续以往仪式化的统计推断套路传授。另外，对于海外学位获得者的误解率较少，可能的解释是海外媒体对于这个话题的讨论相较国内更为“火热”，从而达到了部分“脱敏”的效果，这可能也从一个侧面反应出我们这类调查的作用所在。
这里要严正申明：“揭发”学界存在的问题，目的是为了让大家充分地了解当前科研者的统计推断之现状，以期研究工作者能够注意到当前的问题，更加重视正确地使用p值，而非将其当作一种把数据“升华”为“科学发现”的仪式。我们的研究属于最近正在慢慢兴起的“元研究（meta-science, or science of science）的范围，对研究行为进行研究，以其更合理地进行科学探索。类似的，也有研究者去调查了北美心理学教科书中关于“统计显著性”的解释，在30本教科书里，发现有25本对这个概念的解释是包含了某些错误的(Cassidy, Dimova, Giguère, Spence, & Stanley, 2019)。
我们衷心地期待，在不久的将来，科学界的统计推断指标不断地走向多元化。但如果这种统计推断的仪式化操作不被打破，研究者没有良好的统计思维，就无法保证在将来是否会出现诸如现在已经开始流行基于贝叶斯因子（Bayesian Factor，BF）的“贝叶斯因子操纵（BF-hacking）”、基于BF > 3.0的发表偏见等其他“与时俱进”的新问题出现。我们的研究仅是针对p值和CI进行了调查，也有研究者已经发现，其他常用的统计指标如克隆巴赫alpha系数的理解也不容乐观 (Hoekstra, Vugteveen, Warrens, & Kruyen, 2019)。那么对于其他尚未进行过调查的统计指标，如效应量、贝叶斯因子，研究者是否也存在很深的误解？这一点目前仍无从得知。事实上，在本次研究中，研究者对BF的误解已经初露端倪。例如，有部分研究者声称了解频率学派和贝叶斯学派的区别，但却无法正确回答p值是哪一个学派的统计指标。
总之，公开本次调查的结果，目的是让大家真正重视如何正确解读p值和CI这个问题。对于不少方法学研究者而言，对于p值与CI的理解似乎是常识。遗憾的是，现实中有很多本来应当是常识的声音，却需要不断的重复才能成为常识。这可能是一个真正需要重视的大众心理学问题，也是一值得科学共同体的反思的问题。
错误解读分析：

对p值、CI错误解读的解析

论文信息：Lyu, X.-K., Xu, Y., Zhao, X.-F., Zuo, X.-N., & Hu, C.-P. (2020).Beyond psychology: prevalence of p value and confidence interval misinterpretation across different fields.Journal of Pacific Rim Psychology, 14, e6. doi:10.1017/prp.2019.28 链接：https://doi.org/10.1017/prp.2019.28

致谢：特别感谢“知识分子”“果壳科学人”“统计之都”“科研圈”“我爱脑科学网”“定量群学”对我们研究工作的大力支持，感谢各位参与问卷的同行！

推荐阅读

[1] 陈希孺. (2002). 数理统计学简史. 长沙: 湖南教育出版社.[2] 戴维·萨尔斯伯格. (2016). 女士品茶：统计学如何变革了科学和生活, 刘清山译. 南昌: 江西人民出版社.[3] 吕小康. (2014). 从工具到范式: 假设检验争议的知识社会学反思. 社会, 34 (6), 216–236.[4] Lehmann, E. (2011). Fisher, Neyman, and the Creation of Classical Statistics. New York: Springer.[5] Berger, J. (2003). Could Fisher, Jeffreys and Neyman Have Agreed on Testing? Statistical Science, 18(1), 1–31.[6] Ziliak, S. and D. McCloskey. 2008. The Cult of Statistical Significance. Ann Arbor, MI: University of Michigan Press.

推荐在线资源

[1] Nature的在线统计论文合集Statistics for Biologists：https://www.nature.com/collections/qghhqm/pointsofsignificance[2] Daniel Lakens 在coursera的课程《Improve your statistical inference》：https://www.coursera.org/learn/statistical-inferences

参考文献

[1] Amrhein, V., Greenland, S., & McShane,B. (2019). Scientists rise up against statistical significance. Nature,567, 305-307. doi:10.1038/d41586-019-00857-9[2] Badenes-Ribera, L.,Frias-Navarro, D., Iotti, B., Bonilla-Campos, A., & Longobardi, C. (2016).Misconceptions of thep-value among Chilean and Italian AcademicPsychologists. Frontiers inPsychology, 7, 1247. doi:10.3389/fpsyg.2016.01247[3] Badenes-Ribera, L.,Frías-Navarro, D., Monterde-i-Bort, H., & Pascual-Soler, M. (2015). Interpretationof the p value: A national survey study in academic psychologists fromSpain. Psicothema,27(3), 290-295. doi:10.7334/psicothema2014.283[4] Cassidy, S. A.,Dimova, R., Giguère, B., Spence, J. R., & Stanley, D. J. (2019). FailingGrade: 89% of Introduction-to-Psychology Textbooks That Define or ExplainStatistical Significance Do So Incorrectly. Advances inMethods and Practices in Psychological Science. doi:10.1177/2515245919858072[5] Cristea, I. A.,& Ioannidis, J. P. A. (2018). P values in display items are ubiquitous andalmost invariably significant: A survey of top science journals. PLoS One, 13(5), e0197440. doi:10.1371/journal.pone.0197440[6] Greenland, S.,Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman,D. G. (2016). Statistical tests, P values, confidence intervals, and power: aguide to misinterpretations. EuropeanJournal of Epidemiology, 31(4), 337-350. doi:10.1007/s10654-016-0149-3[7] Haller, H., &Krauss, S. (2002). Misinterpretations of significance : A problem studentsshare with their teachers? Methods ofPsychological Research, 7, 1-20. doi:Retrievedfrom [8] https://www.metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf[9] Hoekstra, R.,Vugteveen, J., Warrens, M. J., & Kruyen, P. M. (2019). An empiricalanalysis of alleged misunderstandings of coefficient alpha. InternationalJournal of Social Research Methodology, 22(4),351-364. doi:10.1080/13645579.2018.1547523[10] Lyu, Z., Peng, K.,& Hu, C.-P. (2018). P-Value, Confidence Intervals, and StatisticalInference: A New Dataset of Misinterpretation. Frontiers inPsychology, 9(868). doi:10.3389/fpsyg.2018.00868[11] Morey, R. D.,Hoekstra, R., Rouder, J. N., & Wagenmakers, E.-J. (2016). Continuedmisinterpretation of confidence intervals: response to Miller and Ulrich. PsychonomicBulletin & Review, 23(1), 131-140. doi:10.3758/s13423-015-0955-8[12] 胡传鹏, 王非, 过继成思, 宋梦迪, 隋洁, 彭凯平. (2016). 心理学研究中的可重复性问题:从危机到契机. 心理科学进展, 24(9), 1504-1518.

本文经授权转载自微信公众号“OpenScience”，有修订。

bxrf的瓜

失信被执行人的孩子上学受影响吗？最高法明确：受限！

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

九成以上研究者或无法正确理解p值

您可能也对以下帖子感兴趣

bxrf的瓜

失信被执行人的孩子上学受影响吗？最高法明确：受限！

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下 一生守护”慈善项目捐赠仪式圆满举行！

生成图片，分享到微信朋友圈

九成以上研究者或无法正确理解p值

您可能也对以下帖子感兴趣

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！